同质性是描述边缘连接相似节点的趋势的图形属性。相反称为异性。尽管同质性对于许多现实世界网络是自然的,但也有没有此属性的网络。人们通常认为,标准消息的图形神经网络(GNNS)在非双性图形上表现不佳,因此此类数据集需要特别注意。尽管为异性图开发图表的学习方法已经付出了很多努力,但尚无普遍同意同质的措施。但是,在文献中使用了几种测量同质性的指标,但是,我们表明所有这些度量都有关键的缺点,以阻止不同数据集之间的同质级别比较。我们将理想的属性形式化,以进行适当的同质度量,并展示如何将有关分类绩效指标属性的现有文献与我们的问题联系起来。在这样做时,我们找到了一种措施,我们称调整后的同质性比现有同质措施更满足所需的特性。有趣的是,该措施与两个分类性能指标有关 - 科恩的kappa和马修斯相关系数。然后,我们超越了同质性的二分法,并提出了一种新的属性,我们称之为标签信息性(LI),该属性表征了邻居标签提供有关节点标签的信息的数量。从理论上讲,我们表明LI在具有不同数量的类和类大小平衡的数据集中相当。通过一系列实验,我们表明LI是对数据集上GNN的性能的更好预测指标,而不是同质性。我们证明了Li解释了为什么GNN有时可以在异性数据集上表现良好 - 这是文献中最近观察到的现象。
translated by 谷歌翻译
本文表明,基于对称决策树的梯度提升可以等效地重新重新重新构成核法,该方法会收敛到某个内核无脊回归问题的解决方案。因此,对于低级内核,我们获得了与高斯过程的收敛后均值,这又使我们能够轻松地将梯度从后部转化为采样器,从而通过蒙特卡洛估计来提供更好的知识不确定性估计。后方差。我们表明,提出的采样器允许更好的知识不确定性估计值,从而改善了域外检测。
translated by 谷歌翻译
This paper presents the key algorithmic techniques behind CatBoost, a new gradient boosting toolkit. Their combination leads to CatBoost outperforming other publicly available boosting implementations in terms of quality on a variety of datasets. Two critical algorithmic advances introduced in CatBoost are the implementation of ordered boosting, a permutation-driven alternative to the classic algorithm, and an innovative algorithm for processing categorical features. Both techniques were created to fight a prediction shift caused by a special kind of target leakage present in all currently existing implementations of gradient boosting algorithms. In this paper, we provide a detailed analysis of this problem and demonstrate that proposed algorithms solve it effectively, leading to excellent empirical results.
translated by 谷歌翻译